在本文中,我们应用了一个多代理增强学习(MARL)框架,允许基站(BS)和用户设备(UES)共同学习频道访问策略及其在无线的多个访问方案中的信号。在此框架中,BS和UES是需要合作才能提供数据的增强剂学习(RL)代理。与无争议和基于争议的基线的比较表明,即使在高流量情况下,我们的框架在高速公路上也达到了卓越的性能,同时保持低碰撞率。研究了该方法的可伸缩性,因为它是MARL中的一个主要问题,本文提供了第一个结果以解决它。
translated by 谷歌翻译
Diffusion models have shown a great ability at bridging the performance gap between predictive and generative approaches for speech enhancement. We have shown that they may even outperform their predictive counterparts for non-additive corruption types or when they are evaluated on mismatched conditions. However, diffusion models suffer from a high computational burden, mainly as they require to run a neural network for each reverse diffusion step, whereas predictive approaches only require one pass. As diffusion models are generative approaches they may also produce vocalizing and breathing artifacts in adverse conditions. In comparison, in such difficult scenarios, predictive models typically do not produce such artifacts but tend to distort the target speech instead, thereby degrading the speech quality. In this work, we present a stochastic regeneration approach where an estimate given by a predictive model is provided as a guide for further diffusion. We show that the proposed approach uses the predictive model to remove the vocalizing and breathing artifacts while producing very high quality samples thanks to the diffusion model, even in adverse conditions. We further show that this approach enables to use lighter sampling schemes with fewer diffusion steps without sacrificing quality, thus lifting the computational burden by an order of magnitude. Source code and audio examples are available online (https://uhh.de/inf-sp-storm).
translated by 谷歌翻译
Diffusion-based generative models have had a high impact on the computer vision and speech processing communities these past years. Besides data generation tasks, they have also been employed for data restoration tasks like speech enhancement and dereverberation. While discriminative models have traditionally been argued to be more powerful e.g. for speech enhancement, generative diffusion approaches have recently been shown to narrow this performance gap considerably. In this paper, we systematically compare the performance of generative diffusion models and discriminative approaches on different speech restoration tasks. For this, we extend our prior contributions on diffusion-based speech enhancement in the complex time-frequency domain to the task of bandwith extension. We then compare it to a discriminatively trained neural network with the same network architecture on three restoration tasks, namely speech denoising, dereverberation and bandwidth extension. We observe that the generative approach performs globally better than its discriminative counterpart on all tasks, with the strongest benefit for non-additive distortion models, like in dereverberation and bandwidth extension. Code and audio examples can be found online at https://uhh.de/inf-sp-sgmsemultitask
translated by 谷歌翻译
增压树是主要的ML模型,表现出高度精度。但是,增压树几乎不可理解,每当将它们用于安全至关重要的应用中时,这都是一个问题。确实,在这种情况下,预期对所做预测的严格解释。最近的工作已经表明,如何使用自动推理技术来推导升压树的小节最小绑架解释。但是,在一般情况下,这种结合的解释的产生是棘手的。为了提高他们这一代的可扩展性,我们介绍了树木特定的解释的概念。我们表明,特定于树的解释是可以在多项式时间内计算的绑架解释。我们还解释了如何从特定于树的解释中得出亚群最小绑架性解释。各种数据集上的实验显示了利用树特定解释的计算益处,以得出亚群最小的绑架解释。
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
在本文中,提出了一种用于加权预测误差(WPE)方法的Kalman滤波变体的神经网络增强算法。滤波器随机变化是通过使用过滤器残留误差和信号特性端对端的深神经网络(DNN)预测的。提出的框架允许在类似于Whamr!的单渠道嘈杂的混响数据集上进行稳健的编织。当目标语音功率频谱密度不完全了解并且观察值嘈杂时,Kalman过滤WPE仅预测剩余误差的滤波器变化时,才会在增强信号中引入失真。提出的方法通过以数据驱动的方式纠正滤波器变化估计来避免这些扭曲,从而将方法的鲁棒性增加到噪声方案。此外,与DNN支持的递归最小二乘正方形变体相比,它产生了强烈的脊椎和脱氧性能,尤其是对于高度嘈杂的输入。
translated by 谷歌翻译
扬声器验证(SV)为访问控制提供数十亿个支持语音的设备,并确保语音驱动技术的安全性。作为一种生物识别技术,SV有必要公正,无论其人口,社会和经济属性如何,在演讲者之间保持一致和可靠的表现。当前的SV评估实践不足以评估偏见:它们过度简化和汇总用户,不代表现实生活中的情况,并且不考虑错误的后果。本文提出了用于构建解决这些短暂事件的SV评估数据集的设计指南。我们提出了一个用于分级话语对的难度的模式,并提出了一种用于生成包容性SV数据集的算法。我们在Voxceleb1数据集上的一组实验中验证了我们提出的方法。我们的结果证实了话语对/扬声器的计数,以及语音对的难度对评估性能和可变性具有重大影响。我们的工作有助于发展包容性和公平的SV评估实践。
translated by 谷歌翻译
基于Eikonal方程的最小测地模型能够在各种图像分割场景中找到合适的解决方案。现有的基于测地的分割方法通常与几何正则化术语一起利用图像特征,例如欧几里德曲线长度或曲率惩罚长度,用于计算测地曲线。在本文中,我们考虑了一个更复杂的问题:在先前用凸形形状找到曲率惩罚的测距路径。我们建立了依赖于取向升降策略的新测地模型,通过该曲线可以映射到高维定向依赖的空间。凸起形状以前用于构建编码特定曲率约束的局部测地度量的约束。然后,可以通过最先进的Hamiltonian快速行进方法有效地计算定向空间中的测地距离和相应的闭合大气路。此外,我们将所提出的测地模型应用于活动轮廓,导致有效的交互式图像分割算法,其保留凸起形状的优点和曲率损失。
translated by 谷歌翻译